Professional Data Engineer
https://gyazo.com/31abc2ecbe35ea2f1866594501a672a9
概要
合格
学習プランニング
よく出るサービス
Dataflow
Dataproc
Spanner
BigQuery
BigQueryML
ML関係
Stackdriver
kafka
hadoop
spark
合格までの勉強方法
試験趣向のGCPサービスについて公式ドキュメントを読んでScrapboxに理解をコミットしている
機械学習について
Datamixの復習とか
cloudgirl読むとか
その他の学習リソース
試験について
レイテンシ、スループット、トランザクションに関するトレードオフ
BigQuery周り
データのバッチとストリーミング
データ基盤のインフラ設計
可用性とか
ML API
Cloud Machine Learning Engine
エッジコンピューティング
パイプラインモニタリング→stackdriver
試験感想
合格までの勉強法でUdemyとdataflow/CloudLogging/Bigtableの公式を読んだくらいだったけど合格できた。
ユースケース毎に各DB/ストレージを選択できるだけで半分くらいは取れそう
Dataflowが結構重点的に出たのでDataflowをしっかり深ぼって理解しておくと良い。Apache Beamのプログラミングモデルの理解とチュートリアルをやってみるとか。
この3日でほぼなんとかした感じ
公式模試も結局やってない
そんなに難しくない
kafka好きすぎだろ笑というぐらい出る
kafkaからpubsubへの移行でpubsubコネクター
緯度経度の問題出た
L1正則化ではなくベクトルとして入力を選択した
どちらが正解かは断言できず
Spannerの主キーUUID4
20TBでRDB→Spanner選んだけど6TBまでじゃないの?
BigQueryのスロット割当が2000限界でどうする?
割当は増やせない、んだよねこれは?
プロジェクトは増やすのはだめという制約
オンプレからの膨大データをTransferappliance
Bigtableのパフォーマンスについて
Dataflowのウィンドウ関数